Telegram Group & Telegram Channel
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/971
Create:
Last Update:

🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/971

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Find Channels On Telegram?

Telegram is an aspiring new messaging app that’s taking the world by storm. The app is free, fast, and claims to be one of the safest messengers around. It allows people to connect easily, without any boundaries.You can use channels on Telegram, which are similar to Facebook pages. If you’re wondering how to find channels on Telegram, you’re in the right place. Keep reading and you’ll find out how. Also, you’ll learn more about channels, creating channels yourself, and the difference between private and public Telegram channels.

How to Invest in Bitcoin?

Like a stock, you can buy and hold Bitcoin as an investment. You can even now do so in special retirement accounts called Bitcoin IRAs. No matter where you choose to hold your Bitcoin, people’s philosophies on how to invest it vary: Some buy and hold long term, some buy and aim to sell after a price rally, and others bet on its price decreasing. Bitcoin’s price over time has experienced big price swings, going as low as $5,165 and as high as $28,990 in 2020 alone. “I think in some places, people might be using Bitcoin to pay for things, but the truth is that it’s an asset that looks like it’s going to be increasing in value relatively quickly for some time,” Marquez says. “So why would you sell something that’s going to be worth so much more next year than it is today? The majority of people that hold it are long-term investors.”

Библиотека собеса по Data Science | вопросы с собеседований from jp


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA